查看原文
其他

单细胞数据科学专栏——Hotspot:“缉病”名侦探——“抽丝剥茧”寻找疾病关键基因

基因功能集合分析简介



在单细胞测序的高分辨率下,细胞展现出了较传统方法相比无法得到的高异质性。因此在单细胞数据分析中,常常会遇到根据已知细胞marker基因无法注释的细胞亚群,如肿瘤细胞亚群或免疫细胞亚群。在寻找此类亚群中的生物学关键基因时,现有寻找差异基因的方法较为局限,原因如下:1. 无法确认机械分群所用分辨率是否合适;2. 一些与细胞活动相关的功能往往由多个细胞群共同表达,较难通过单个细胞群的比较获得较为宏观的表达谱;3. 亚群细胞数量较小时,会过滤掉较多无统计学差异的基因;4. 亚群较多时差异比较项多,数据结果较难整理和解读。

为研究这些细胞亚群的功能及其在疾病发生发展中的功能和作用,可以通过基因功能集合分析的方法,对细胞亚群中差异表达的基因进行相关性聚类。其中基因集合定义为表达高度相关的一群基因,通常这些基因是高度协同变化且执行相同生物学功能的基因,因此又可以称之为基因功能集合。通过基因功能集合分析得到的基因功能集合,可用于评估和解读细胞亚群的功能,定义亚群以及寻找与疾病发生发展相关的标志基因或可用于研究肿瘤细胞的表达模式等。




基因功能集合分析的发展



基因功能集合分析早在传统转录组数据分析时代就已被普遍应用,如大家熟悉的加权基因共表达网络分析[1](WGCNA, Weighted Correlation Network Analysis)。然而WGCNA应用在单细胞转录组数据分析时存在一些短板。一则该方法并未考虑高通量单细胞测序中单细胞初始RNA含量低和磁珠捕获效率导致的dropout现象,使得分析时会造成大量基因无法纳入分析;二则是该算法无法承载非常大的细胞量,会消耗大量计算资源。

随着单细胞转录组测序的发展和进步,更多适合单细胞数据的基因集合分析方法应运而生,如非负矩阵分解(Non-negative Matrix Factorization, NMF)算法[2],详见以往推文——cNMF:一种单细胞转录组数据基因功能集合分析方法。NMF算法通过设定K值可将原始矩阵分解为K个基因功能集合的基因集合的矩阵以及集合的细胞得分矩阵。尽管一些算法如cNMF提供了根据错误率和稳定性选择最佳K值的方法,然而评估过程和计算过程需大量迭代,一定程度上限制了该方法所能适用的细胞通量上限。与此同时,该方法无法很好规避多样本整合分析时的批次效应,在多样本联合分析时无法避免得到与批次相关的基因集合。在应用上,通常选择进行单样本NMF分析后,将基因集合进行再整合。

随着基于算法模型构建相似性图形的方法在单细胞数据分析中的广泛应用,Nir Yosef团队将此概念引入了基因功能集合分析而开发了Hotspot算法[3]。与其他基因功能集合方法相比,该方法在快速稳定的基础上,能够使得更多基因纳入分析并获得更多的基因集合。

图1 多种基因功能集合分析方法的横向比较[3]




Hotspot基因功能集合分析方法简介



Hotspot是一款基于图谱的基因功能集合算法。其方法主要分为以下几步:1)基于基因表达相似性的隐变量模型构建细胞相似性KNN邻图,其中隐变量模型可为PCA或去除批次的harmony变量等;2)根据基因表达与细胞相似性KNN邻图的空间自相关性筛选出空间特异性的基因;3)对具有空间特异性的基因进行基于图形的空间聚类并依据基因间的空间互相关性找到若干基因功能集合;4)对基因功能集合表达水平进行基因集合打分并进行可视化。下图展示了CD4+T细胞基因功能集合分析的结果,通过Hotspot分析得到了12个基因功能集合,并在不同的亚群中差异表达。

图2 CD4+T细胞基因功能集合聚类热图和打分降维UMAP可视化[3]

除了可以应用于单细胞转录组数据中,Hotspot基因功能集合分析还可应用于空间转录组数据以寻找空间特异性集合[3],或用于scATAC-seq数据中寻找与表观遗传相关的集合[4]




Hotspot基因功能集合分析助力新格元CeleLens模块化数据分析



与其他基因功能集合分析相比,Hotspot在分析结果上表现优越,于此同时快速高效稳定且自动化程度高,为寻找细胞亚群的表达模式分析的模块化分析提供了可能性。新格元于2021年10月发布了CeleLens单细胞数据分析模块,其中的Module 04(基因集合发现与富集模块)便应用了Hotspot基因集合分析方法寻找基因功能集合,并与杰卡德相似性分析,功能富集分析及TCGA生存曲线分析等下游分析联动,方便研究者研究亚群功能和表达模式,助力寻找疾病发生发展中的关键基因。

图3 新格元CeleLens单细胞数据分析模块Module 04分析框架和结果展示




参考文献



[1] Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 9, 559 (2008). https://doi.org/10.1186/1471-2105-9-559

[2] Kotliar, Dylan, et al. "Identifying gene expression programs of cell-type identity and cellular activity with single-cell RNA-Seq." Elife 8 (2019): e43803.

[3] DeTomaso, David, and Nir Yosef. "Hotspot identifies informative gene modules across modalities of single-cell genomics." Cell Systems 12.5 (2021): 446-456.

[4] Wimmers, Florian, et al. "The single-cell epigenomic and transcriptional landscape of immunity to influenza vaccination." Cell 184.15 (2021): 3915-3935.




- THE END -


往期推荐






新格元秉持“格物致知,识微通元”的创新性理念,致力于发展简便可靠的单细胞组学技术,更新细胞病理和血液检测方法,让单细胞组学以传统方法无法比拟的精确度、灵敏度和分辨率服务于精准医疗和健康管理等领域。

格物致知,识微通元


公司电话:0512-67215102

技术联系电话:18151629767

合作邮箱:marketing@singleronbio.com

官网:www.singleronbio.com

地址:南京市江北新区药谷大道11号加速器二期6栋4-5

地址:苏州市工业园区星湖街218号生物纳米园B4楼401




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存